扫描下载APP
其它方式登录
清华大学团队研究揭示On-Policy Distillation(OPD)蒸馏失败的核心原因:教师与学生思维模式不一致、高分教师未必提供新知识;提出Token级对齐机制,并给出冷启动SFT和提示词对齐两剂实用解决方案,打破‘名师必出高徒’的迷信。